13996527831
详细

【seo李守洪排名大师】搜索引擎的三大核心算法

发表日期:2018-07-17 21:26:05   作者来源:米卓网络   浏览:    

  外链是搜索引擎算法中判断网站权重的重要指标。当用户在搜索框中输入关键字时,搜索引擎面向具有相同内容的大量网页。需要解决的第一件事是哪些参数决定了页面排名。高和低。【seo李守洪排名大师】将介绍外部链接构建中众所周知的核心算法:PageRank算法、Hilltop算法和Direct Hit算法

PageRank算法

  一、PageRank算法

  1998年,谢尔盖·布林和劳伦斯·佩奇提出了PageRank算法。该算法基于“从许多高质量网页链接的网页,必须是高质量的网页”之间的回归关系来确定网页的重要性。该算法认为从网页A到网页B的链接可以被视为页面B的页面A的支持投票,并且根据投票数来判断页面的重要性。当然,您不仅要查看投票数,还需要分析您投票的页面的重要性。页面越重要,评级就越高。根据这样的分析,高度评价的重要页面被赋予更高的PageRank值,并且搜索结果中的排名也增加。 PageRank基于对“使用复杂算法获得的链接结构”的分析,以推导出每个网页本身的特征。

  PageRank算法的优点在于它为互联网上的网页提供了一个重要的全局顺序,并且算法的计算过程可以离线完成,这有利于快速响应用户请求。然而,其缺点是该主题无关紧要。它不区分页面中的导航链接、广告链接和功能链接。很容易高估广告页面。此外,PageRank算法的另一个缺点是旧页面排名将比新页面排名更新。页面很高,因为新页面,即使是非常好的页面,也不会有很多链接,除非他是网站的子网站。这就是PageRank需要多种算法组合的原因。

  两个、Hilltop算法HillTop是一项排序搜索引擎结果的专利,于2001年获得Google工程师Bharat的专利.HillTop算法的指导原则与PageRank一致,即搜索结果的排名权重取决于反向链接的数量和质量。但是,HillTop认为,只计算来自相同文档的相同主题的链接对搜索者来说更有价值,也就是说,主题相关页面之间的链接对权重计算的贡献大于与主题无关的链接。在1999-2000,当算法由Bharat和其他谷歌开发人员开发时,他们称这个文件作为“专家”文档对该主题有影响,并且只有从这些专家文档页面到目标文档的链接被确定。链接页面“重量分数”的主要部分。

  Hilltop算法的过程:首先计算与查询主题最相关的“专家”资源列表;其次,确定所选“专家”中的相关链接,并跟踪它们以确定相关的网络目标;然后根据非关联性将目标指向它们“专家”的数量和相关性排名。因此,着陆页的得分反映了关于查询主题的最中立的专家的集体观点。如果不存在这样的专家库,Hilltop将不会给出结果。

  从Hilltop算法过程可以看出,该算法包括两个主要方面:找到专家、目标排序。通过预处理搜索引擎抓取的页面来识别专家页面。对于关键字查询,首先在专家中查找并对返回的结果进行排序。

  权威页面是最佳专家指向查询主题的页面。专家也可以成为更广泛领域或其他领域的专家。专家页面中只有一部分链接与该主题相关。因此,合并查询主题的专家中的相关出站链接以找到查询主题相关页面的高度识别的页面。

  从顶部匹配专家页面和相关匹配信息中选择专家页面中超链接的子集。特别是,选择与所有查询相关的链接。根据这些选定的链接,找到它们的目标子集作为查询主题的最相关页面。该目标子集包含链接到至少两个非相对专家页面的页面。目标集按指向它们的专家的组合分数排序。Hilltop在应用程序中仍然存在一些缺点。专家页面的搜索和确定在算法中起关键作用。专家页面的质量决定了算法的准确性;专家页面的质量和公平性在一定程度上难以保证。 Hiltop忽略了大多数非专家页面的影响。在Hiltop的原型系统中,专家页面仅占整个页面的1.79%,并不能完全代表整个Internet。

  当Hiltop算法无法获得足够的专家页面子集(少于两个专家页面)时,返回为空,即Hiltop适用于优化查询顺序,但不能覆盖。这意味着Hilltop可以与页面排序算法结合使用以提高精度,并且不适合作为独立的页面排序算法。 Hilltop从基于查询主题的专家页面集合中选择与主题相关的子集也在线运行,这会影响查询响应时间以及前面提到的HITS算法。随着专家页面的集合增加,算法的可伸缩性存在缺陷。

  HITS算法的优点是它更好地描述了互联网的组织特征。由于它仅分析互联网的一小部分,因此需要更少的迭代,更快的收敛和更短的时间复杂度。

  但是,seo李守洪排名大师认为HITS算法也有以下缺点:

  1.中央页面之间相互引用以增加其网页评级。当一个网站上的多个页面指向同一个链接,或者一个页面指向另一个网站上的多个文件时,它将导致评级异常增加。这可能容易受到“垃圾链接”的影响。

  2.主题漂移,通常包括与邻接图中的搜索主题无关的链接。如果链接本身也是中心页面或权威网页,则主题漂移为——。对于每个不同的查询算法,需要重新运行一次才能获得结果。 。这使得它无法在实时系统中使用,因为数以千万计的并发查询的开销太大。

  三个、Direct命中算法与前两种算法相比,Ask Jeeves的直接命中算法是一种侧重于信息质量和用户反馈的排序方法。基本思想是搜索引擎将查询结果返回给用户并跟踪用户在搜索结果中的点击次数。如果用户点击返回结果中排名靠前的网页,浏览时间短,用户返回再次点击其他搜索结果,则认为相关性较差,系统将降低相关性网页。另一方面,如果点击并打开网页供用户浏览,并且浏览时间长,则网页的流行度高,因此,系统将增加网页的相关性。可以看出,在该方法中,相关性不断变化,并且在不同时间搜索相同的单词,并且结果集的顺序可以不同。这是一种动态排序。

  李守洪排名大师认为该算法的优点是可以节省大量时间,因为用户可以从搜索结果中读取更令人满意的结果。同时,该算法直接集成了用户的反馈信息,可以保证页面的质量。

  但是,统计数据显示Direct Hit算法仅适用于搜索较少关键字的情况,因为它实际上并不排序,而是一种过滤和提取。当在数据库中搜索大量、关键字时,将返回该关键字。有数千个搜索结果,用户无法逐个查看。因此,这种方法不能作为主要的排序算法,而是一种很好的辅助排序算法,它仍然在许多搜索引擎中使用。事实上,网页的搜索排名是多种算法组合的结果。通过简单地分析上述三种算法,Pagerank可以给出网站上所有页面的重要性顺序,但是没有针对性的、相关性,现在PR值欺骗已达到泛滥的程度,因此Hilltop提出的PR算法将为大多数网站管理员做外部链接建设起到指导作用。在Hilltop算法中,每个字段中都有几个专家页面。如果您搜索相关关键字,搜索引擎将首先从专家页面进行搜索。如果匹配不够,请从专家页面链接的下一页查找,依此类推。 Direct Hit算法可以很好地补充Hilltop和pagerank。 Direct Hit更多的是关于用户体验的影响,搜索结果的质量,实时更新,最符合搜索用户要求的页面,应该是用户从搜索框开始点击页面链接,用户浏览网站超过一段时间,被认为是结果页面,更符合用户的搜索要求。长期有效点击,页面排名在搜索引擎中,会有相应的改进。